当前信息时代在互联网上产生的数据的指数增长是数字经济的推动力。信息提取是累积大数据中的主要价值。对统计分析和手工设计的规则机器学习算法的大数据依赖性被人类语言固有的巨大复杂性所淹没。自然语言处理(NLP)正在装备机器,以了解这些人类多样化和复杂的语言。文本分类是一个NLP任务,它会自动识别基于预定义或未定标记的集合的模式。常见的文本分类应用程序包括信息检索,建模新闻主题,主题提取,情感分析和垃圾邮件检测。在文本中,某些单词序列取决于上一个或下一个单词序列以使其充分含义。这是一项具有挑战性的依赖性任务,要求机器能够存储一些以前的重要信息以影响未来的含义。诸如RNN,GRU和LSTM之类的序列模型是具有长期依赖性任务的突破。因此,我们将这些模型应用于二进制和多类分类。产生的结果非常出色,大多数模型在80%和94%的范围内执行。但是,这个结果并不详尽,因为我们认为如果机器要与人类竞争,可以改进。
translated by 谷歌翻译